热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

管理体系|进展_AI数据也要紧跟MLOps,那个把标注精度提高到99.99%的公司又出手了

篇首语:本文由编程笔记#小编为大家整理,主要介绍了AI数据也要紧跟MLOps,那个把标注精度提高到99.99%的公司又出手了相关的知识,希望对你有一定的参考价值。

篇首语:本文由编程笔记#小编为大家整理,主要介绍了AI数据也要紧跟MLOps,那个把标注精度提高到99.99%的公司又出手了相关的知识,希望对你有一定的参考价值。



梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

当IT行业改变整个世界的时候,DevOps理念从大量产业实践中诞生。


如今AI也进入产业化新时代,继承者MLOps或者叫AI工程化也越发火热。


Gartner咨询公司将AI工程化列为2022年十二大战略性技术趋势,IDC则预测到2024年60%的企业将MLOps用于机器学习工作流。



图源:ml-ops.org

这一波浪潮之中,算法的工程化一如既往的跑在前面,模型的自动部署、持续训练甚至AutoML都有较大进展。


与之相对的是,数据的工程化稍显落后。


对此,一直呼吁建设“以数据为中心AI”的吴恩达,今年初在接受IEEE Spectrum采访时也喊出新的口号:



AI要从大数据转向高质量的小数据。



吴恩达认为,对于数据中存在的噪声,通常做法是只要量足够大就可以让算法对其做平均处理。


但这样做不仅限制了算法的能力,有些场景如工业质检、罕见病等更是根本凑不出一个大型数据集,精心标注的高质量数据就成了关键。



实际上,除了碎片场景之外,如何高效构建高质量数据集也是全行业共同面对的问题。


AI工程化的大背景下,新一代数据标注与管理方法也从实践中逐渐诞生。


最新解决方案来了


云测数据,一家以“将数据标注的最高准确率提升到99.99%”而闻名的AI数据服务公司,率先推出「面向AI工程化的新一代数据解决方案」


方案不仅包括标注数据、管理数据所需的平台工具,还涉及管理体系以及数据安全,总共三个方面。


平台工具方面,除了基础的标注工具、API集成能力,还有数据流转产线工作台和数据产能管理体系。


管理体系方面,分为人员管理和项目管理两部分。


数据安全方面,则从硬件安全、网络安全、物理安全和人员安全管理4个角度提供保障。



为什么是这三个方面?云测数据总经理贾宇航从AI工程化时代的不同特征进行了分析。


算法进入持续优化期,此时数据也要从瀑布式流转过渡到持续流转。


在算法预研期只需要基础数据集就能满足需求,针对实际业务场景的算法研发期则需要数据采集、清洗、标注等一系列定制化服务。


算法进入持续优化期,情况再次发生变化。


生产环境的回流数据需要持续标注用于迭代,使算法越用越智能;标注数据需要流转至仿真平台用于算法评测,提高重复利用价值;自动化流程中又需要辅以人工检查纠正,降本增效。


云测数据新一代解决方案中基于这些需求打造了数据处理工作台,支持持续任务处理、人机协作,同时以标准API接口与各类系统对接,将AI数据训练过程中的综合效率提升200%。



算法落地到实际场景中,而高质量的场景数据需要标注人员有领域专业知识。


举例来说,前一阵谷歌的文本情感数据集GoEmotion就被一位机器学习工程师Edwin Chen指出有30%标注错误,他分析问题出在谷歌请的印度员工不了解美国本土互联网文化。


像这样的问题,在知识门槛颇高的金融、自动驾驶等领域场景中也有可能发生。


对此,云测数据推出数据服务体系。其中人员管理体系涵盖招聘、业务培训,以及自动驾驶、智慧金融、AIOT等重点行业的领域知识培训。项目管理体系则以标准化的流程把控数据质量,将数据标注最高精度提升至99.99%。



最后,算法深入到实际业务中,数据安全需要得到保障。


云测数据推出安全交付体系,全方位保障数据安全和风险治理,同时满足ISO27001和ISO27701标准。



新一代数据解决方案,如何炼成?


云测数据是AI数据服务领域的领先者,凭借在产品、服务、技术研发等方面的综合实践,已连续三年被评为行业第一,具备丰富的研发及产业化服务经验。



技术能力方面,去年云测数据先后发布云测数据标注平台、AI数据集管理系统等技术成果,率先形成AI训练数据的“采、标、管、存”一站式服务,实现从“数据原料”到最后的“数据成品”全链条打通,输出完整的数据价值,其中更是将数据标注的最高准确率提升到了99.99%。


又经过一年的打磨完善后,云测数据标注平台&数据集管理系统在工具丰富性与易用性得到升级,并且与各种类型企业系统对接的能力得到增强,整合到最新解决方案里。



行业经验方面,云测数据提供多维度、场景化的数据服务与策略,多年来服务于汽车、安防、手机、家居、金融、教育、新零售、地产等行业,满足AI应用在数据质量、数据丰富度、数据时效性等方面的需求。


另外正如MLOps继承自软件行业的DevOps,Testin云测结合自身优势,将软件测试业务上10多年ToB服务经验也迁移沉淀至云测数据的AI数据服务中,提质增效的作用十分显著。


到如今,随着智能化转型的逐渐深入,云测数据的服务对象已扩展至各行各业,正是在大量实践与不断探索中,AI数据服务所需的方方面面被云测数据掌握、整合,最终沉淀成新一代数据解决方案集中发布亮相。


而随着新一代数据解决方案的发布及云测数据背后更多动作布局,给AI数据服务行业本身也带来一些改变。


云测数据,带来什么改变?


先看云测数据给服务对象带来的改变。


以自动驾驶行业为例,首先是一站式解决自动驾驶领域多场景的数据采集的需求,包括智能驾驶主流应用场景。通过云测数据的DMS与ADAS场景搭建采集能力,来减少数据采集周期、提升数据质量。


接下来,通过数据标注平台来解决包括2D标注、3D点云标注、2D/3D融合标注、语义分割、目标跟踪等等数据标注需求,同时标注&管理平台支持与企业完成训练、仿真等系统集成。


数据不必再按批次来回传输,实时处理的同时节省大量时间和成本。数据不出企业内网就能完成流转,同时也支持专业标注员驻场作业,在保证数据安全的基础上,有效降低信息传递损耗,同时兼顾标注作业效率和质量的提升。




据贾宇航透露,以某自动驾驶相关企业为例,原来要花一周时间的AI数据工作,对接新一代数据解决方案后效能至少提升2倍以上


凭借这样的能力,云测数据与行业内包括自主、合资车企,大型Tier1、Tier2,以及无人出租车等众多自动驾驶企业建立了持久良好的合作关系。



效率的提升同样体现在零售货检行业,通过云测数据标注平台将货柜检测数据持续回流,基于算法预标注结果进行可视化审查并修改,与纯人工标注效率提升3倍。


而在金融领域,通过云测数据标注平台及集成算法API可进行金融票据标注,通过离岸的安全房进行标注,在保证质量和效率的基础上确保数据隐私安全。


另外还有建筑行业也可以通过云测数据标注平台对生成建筑CAD图纸进行审查校验。


云测数据深度合作伙伴覆盖了汽车、手机、工业、家居、金融、安防、教育、新零售、地产、生态系统等行业。这其中包含众多世界500强企业、高校科研机构、政府机构,头部AI企业和大型互联网企业覆盖率超90% ,涵盖了计算机视觉、语音识别、自然语言处理、知识图谱等AI主流技术领域。


与此同时,云测数据对AI数据服务行业自身的探索也在持续进行。


比如作为人工智能数据服务领域代表厂商,参与信通院牵头的全球首个MLOps模型开发管理标准,以数据标准化助推AI落地。


最新能透露的一条进展是, 云测数据正与云服务厂商合作,探讨延展数据服务的边界。


参考资料:
[1]https://spectrum.ieee.org/andrew-ng-data-centric-ai
[2]https://www.surgehq.ai/blog/30-percent-of-googles-reddit-emotions-dataset-is-mislabeled


—  —


点这里👇关注我,记得标星哦~


推荐阅读
  • 推荐 :以数据驱动的方式讲故事
    直觉vs数据首先,你有思考过一个问题吗?当你的直觉与你所掌握的数据矛盾的时候,你是听从于直觉还是相信你所掌握的数据呢?201 ... [详细]
  • GPT-3发布,动动手指就能自动生成代码的神器来了!
    近日,OpenAI发布了最新的NLP模型GPT-3,该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB,参数个数高达1750亿,训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站,用户只需用英语描述需求,前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年,OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型,在限定条件下以2:0完胜人类冠军。 ... [详细]
  • 「爆干7天7夜」入门AI人工智能学习路线一条龙,真的不能再透彻了
    前言应广大粉丝要求,今天迪迦来和大家讲解一下如何去入门人工智能,也算是迪迦对自己学习人工智能这么多年的一个总结吧,本条学习路线并不会那么 ... [详细]
  • 深度学习与神经网络——邱锡鹏
    深度学习与神经网络——邱锡鹏-一、绪论人工智能的一个子领域神经网络:一种以(人工))神经元为基本单元的模型深度学习:一类机器学习问题,主要解决贡献度分配问题知识结构:路线图:顶 ... [详细]
  • 本文介绍了adg架构设置在企业数据治理中的应用。随着信息技术的发展,企业IT系统的快速发展使得数据成为企业业务增长的新动力,但同时也带来了数据冗余、数据难发现、效率低下、资源消耗等问题。本文讨论了企业面临的几类尖锐问题,并提出了解决方案,包括确保库表结构与系统测试版本一致、避免数据冗余、快速定位问题等。此外,本文还探讨了adg架构在大版本升级、上云服务和微服务治理方面的应用。通过本文的介绍,读者可以了解到adg架构设置的重要性及其在企业数据治理中的应用。 ... [详细]
  • 浏览器中的异常检测算法及其在深度学习中的应用
    本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
  • 如何使用代理服务器进行网页抓取?
    本文介绍了如何使用代理服务器进行网页抓取,并探讨了数据驱动对竞争优势的重要性。通过网页抓取,企业可以快速获取并分析大量与需求相关的数据,从而制定营销战略。同时,网页抓取还可以帮助电子商务公司在竞争对手的网站上下载数百页的有用数据,提高销售增长和毛利率。 ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • 老牌医药收割AI红利:先投个15亿美元抢中国人才
    萧箫发自凹非寺量子位报道|公众号QbitAI没想到,一场大会把我的“刻板印象”攻破了。2021世界人工智能大会现场,能看见不少熟悉的身影, ... [详细]
  • 干货 | 携程AI推理性能的自动化优化实践
    作者简介携程度假AI研发团队致力于为携程旅游事业部提供丰富的AI技术产品,其中性能优化组为AI模型提供全方位的优化方案,提升推理性能降低成本࿰ ... [详细]
  • 博客_2018年博客总结
    本文由编程笔记#小编为大家整理,主要介绍了2018年博客总结相关的知识,希望对你有一定的参考价值。前言     ... [详细]
  • NLP如何进阶?你应该先掌握四大基本任务!
    “语言理解是人工智能领域皇冠上的明珠。”——比尔盖茨自然语言处理是一门综合性的学问,它远远不止机器学习算法。相比图像或语音,文本的变化更加复杂ÿ ... [详细]
  • 目前有哪些主流的编程语言呢?1、Java:应用广泛,Android的编程,大部分是用Java;相关岗位:软件工程师,软件架构师和DevOps工程师。2、Python:简单易学,软件 ... [详细]
  • 开发笔记:DevOps Gitlab环境部署
    本文由编程笔记#小编为大家整理,主要介绍了DevOpsGitlab环境部署相关的知识,希望对你有一定的参考价值。DevOps介绍 ... [详细]
  • 智慧城市背景下Python机器学习项目实战案例分享
    首先,何为智慧城市?智慧城市的“智慧”源自何处?智慧城市的特征在于运用大数据和数字技术提高居民生活质量。机构获得的数据越全面、越实时,它们就越有能力观测事件发生的详情、分析需求模 ... [详细]
author-avatar
ChinaSpecial
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有